ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
نویسندگان
چکیده مقاله:
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد میگردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دستهبند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود. به علاوه، استفاده از امتیاز تعلقگرفته به عبارات توسط دستهبند، جهت ایجاد لیستی مرتب از عبارات برای دستهبندی، به جای استفاده ازخروجی دستهبند، پیشنهاد میشود. نتایج، نشاندهنده دقت قابلقبول سیستم ارائهشده است.
منابع مشابه
ارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
متن کاملارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...
متن کاملارائه روشی جدید برای شاخص گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه بندی متون
در زبان فارسی کلمات دارای صورت های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح نامه که از نظامی ساختارمند برخوردار است می توان شبکه کلمات...
متن کاملاستخراج خودکار عبارتهای کلیدی از متون مقالههای فارسی
در پژوهش حاضر، عبارتهای کلیدی از متون مقالههای فارسی به صورت خودکار جداسازی گردیده است. استخراج عبارتها مبتنی بر روشهای آماری، نحوة توزیع واژگان، مجاورت و ... صورت پذیرفته است. سیستمی که بر پایه پژوهش حاضر طراحی گردیده، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، با توجه به بازخوردهای کاربر از قابلیت یادگیری برخوردار است، به گونهای که در طول زمان مرتباً به کارایی آن افز...
متن کاملارائه روشی ترکیبی برای دسته بندی موضوعی صفحات وب به صورت خودکار
اهمیت دسته بندی موضوعی صفحات وب باعث شده با پیدایش اولین سایت های اینترنتی شرکت های بزرگی مانند یاهو و aol به فکر ارائه سرویس های فهرست وب که وب سایت های مختلف را با کمک نیروی انسانی بر اساس موضوع دسته بندی می کند بیفتند. با افزایش روز افزون تعداد صفحات وب و عدم امکان دسته بندی صفحات وب به صورت دستی و همچنین پیدایش کاربرد های دیگری برای دسته بندی خودکار صفحات وب از قبیل فیلترینگ هوشمند و ایجاد ...
روشی جدید در قطعه بندی خودکار تصاویر ماهواره ای با دقت بالا برای استخراج خطوط ساحلی
The objective of this paper is to introduce a new method for coastlines delineation from high-resolution satellite images automatically. The proposed approach integrates the color histogram analysis for estimating the number of clusters, fuzzy c-partition, and genetic algorithms for optimizing fuzzy c-partition matrix. The imagery is classified into homogenous areas using the proposed fuzzy log...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 47 شماره 3
صفحات 857- 866
تاریخ انتشار 2017-11-22
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023